听说你的样本是PDX模型?(二)|单细胞专题
其实我们可以知道,在我们从PDX模型中分离肿瘤组织的时候,由于肿瘤组织高度浸润的特征,难免会留存一些小鼠来源的基底组织。这些组织在提取核酸的过程中,自然会带入小鼠的DNA或者RNA。
例如下图中,我们就很容易能够看出,在最下方组织分离与核酸提取的过程中,混入了相当一部分的粉色核酸,即来源于小鼠的核酸。这些核酸如果不加以处理,将会对后续的基因表达定量或者变异检测过程产生极大的影响。(见过PDX组织产生的全外数据,不加以处理直接进行变异calling是什么情况吗?看到突变数量的时候我惊呆了)
为了应对这种方法,我们首先可能想到的是利用人和小鼠基因组上的差异,利用与基因组的匹配程度来去除掉来源于小鼠的reads(比如比对上人基因组的reads保留,或者比对上小鼠基因组的reads去除等),但是无论是使用Hisat还是BWA等比对软件,我们都会发现一个问题:有很多小鼠的序列是与人同源的,差异并不算特别大(尤其是在外显子区域或者转录本序列上)。
这种时候可能会由于序列相似性而产生大量的假阴性或者假阳性,去除不干净,或者本来属于人的序列被去掉的太多。那么这种时候直接比对肯定是行不通了,我们有没有什么其他的方法呢?
到这里,我们需要引入一个概念,就是k-mer。k-mer是一个生物信息学概念,它指一段序列中长度为k的连续碱基组合,k-mer大概类似于滑窗,比如设定k=4,那么一段5碱基长度序列中就会有2个4-mer。k-mer的序列及其频次可以非常好地反映一个序列的特征(所以在基因组denovo组装中,k-mer的运用非常广泛,用于判断基因组的基本特征)。那么基于人和鼠基因组的不同,它们也会具有差异很大的不同k-mer特征。
不仅是人和小鼠,其他宿主-移植之间具有基因组差异的数据,也可以使用类似方法进行区分。所以基于这种算法,研究者在2012年开发了算法Xenome。
Xenome这款软件的命名巧妙地结合了xeno-和genome,明确地告诉我们它就是为了xenograft的基因组学相关研究而开发的。该软件发表于2012年的Bioinformatics上,它能够基于k-mer分析(k值预设为25)以及与预先构建的基因组数据库进行比对,先区分k-mer的来源(来源于宿主、移植物还是两者都有),然后再根据每个reads包含的k-mer情况,对reads进行区分。
Xenome进行k-mer分配的韦恩图
在使用Xenome对PE测序数据进行运算以后,会生成5对fastq文件:host/graft/ambiguous/both/neither,我们从字面意思就可以看出他们的来源。当然软件的作者也提到了,有一些基因它们在人和小鼠之间的相似程度太高了(比如MYH基因),它们的序列可能会被归类到ambiguous或者both当中去,如果特别关注这些基因,可以考虑将这两部分也纳入到分析当中去。(值得一提的是,Xenome这个软件安装的依赖包太多了,环境配置比较困难,有条件的话还是弄一个容器比较好)
当然,在Xenome之后,还有其他各种用于序列区分的软件诞生,去年研究者在Cancer research上发表了一篇文献用于进行不同处理方式的比较,Xenome的表现与其他新诞生的软件相比不落下风,足以见得这种算法的robustness(当然BBsplit等新软件也是非常值得关注的)。所以在得到测序数据之后,我们需要用Xenome等软件对数据进行处理,之后才能得到我们可以用于得到正确分析结果的数据。
目前而言,该工具已经有相当多的文章引用,其中不乏高分文献,如Nature Medicine和Nature Genetics。整体而言,Xenome是一种非常高效可靠的PDX数据处理方法。
Evrard YA, Srivastava A, Randjelovic J, Doroshow JH, Dean DA 2nd, Morris JS, Chuang JH; NCI PDXNet Consortium. Systematic Establishment of Robustness and Standards in Patient-Derived Xenograft Experiments and Analysis. Cancer Res. 2020 Jun 1;80(11):2286-2297.
doi: 10.1158/0008-5472.CAN-19-3101.
Conway T, Wazny J, Bromage A, Tymms M, Sooraj D, Williams ED, Beresford-Smith B. Xenome--a tool for classifying reads from xenograft samples. Bioinformatics. 2012 Jun 15;28(12):i172-8.
doi: 10.1093/bioinformatics/bts236.
关于联川
杭州联川生物为全球各地的科研用户提供基因组、转录组、蛋白组、代谢组,以及单细胞和空间组学测序服务。单细胞测序作为联川战略发展方向,在组织解离和单细胞生信分析方面充分发挥自身优势,为客户提供优质的服务。目前已经与100多个国家及地区的科研院校、医院、制药公司建立起了长期的合作伙伴关系,累计发表单细胞测序相关的SCI论文近百篇,影响因子平均15+。
相关阅读
FFPE单细胞和空间转录组专题:原发性中枢神经系统淋巴瘤异质性及发生机制
STAR Protocols|利用Visium空间转录组平台定位T细胞克隆|空间转录组专题
点击下方图片进入云平台资料汇总:
所见即所得,绘图高规格联川云平台,让科研更自由